In this paper, we propose and showcase, for the first time, monocular multi-view layout estimation for warehouse racks and shelves. Unlike typical layout estimation methods, MVRackLay estimates multi-layered layouts, wherein each layer corresponds to the layout of a shelf within a rack. Given a sequence of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture outputs segmented racks, the front and the top view layout of each shelf within a rack. With minimal effort, such an output is transformed into a 3D rendering of all racks, shelves and objects on the shelves, giving an accurate 3D depiction of the entire warehouse scene in terms of racks, shelves and the number of objects on each shelf. MVRackLay generalizes to a diverse set of warehouse scenes with varying number of objects on each shelf, number of shelves and in the presence of other such racks in the background. Further, MVRackLay shows superior performance vis-a-vis its single view counterpart, RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP metrics. We also showcase a multi-view stitching of the 3D layouts resulting in a representation of the warehouse scene with respect to a global reference frame akin to a rendering of the scene from a SLAM pipeline. To the best of our knowledge, this is the first such work to portray a 3D rendering of a warehouse scene in terms of its semantic components - Racks, Shelves and Objects - all from a single monocular camera.
translated by 谷歌翻译
与计算机视觉合并的基于无人机的遥感系统(UAV)遥感系统具有协助建筑物建设和灾难管理的潜力,例如地震期间的损害评估。可以通过检查来评估建筑物到地震的脆弱性,该检查考虑到相关组件的预期损害进展以及组件对结构系统性能的贡献。这些检查中的大多数是手动进行的,导致高利用人力,时间和成本。本文提出了一种通过基于无人机的图像数据收集和用于后处理的软件库来自动化这些检查的方法,该方法有助于估算地震结构参数。这里考虑的关键参数是相邻建筑物,建筑计划形状,建筑计划区域,屋顶上的对象和屋顶布局之间的距离。通过使用距离测量传感器以及通过Google Earth获得的数据进行的现场测量,可以验证所提出的方法在估计上述参数估算上述参数方面的准确性。可以从https://uvrsabi.github.io/访问其他详细信息和代码。
translated by 谷歌翻译
我们在室外环境中自动驾驶的背景下研究了视觉和语言导航(VLN)问题。我们通过明确接地与Textual命令相对应的可通道区域来解决问题。在每个时间戳,该模型预测与中间或最终可通道区域相对应的分割掩码。我们的工作与VLN中的现有工作形成鲜明对比,VLN的现有工作将该任务置于节点选择问题,并且给定与环境相对应的离散连接图。我们不假定这种离散的地图的可用性。我们的工作朝着动作领域的连续性发展,通过视觉反馈提供了解释性,并允许在需要更精细的操作的命令上进行VLN,例如“两辆汽车之间的停车”。此外,我们提出了一种新型的元数据carla-nav,以允许有效的训练和验证。该数据集包括预录制的培训序列以及用于验证和测试的实时环境。我们提供广泛的定性和定量经验结果,以验证所提出的方法的功效。
translated by 谷歌翻译
我们生活的世界充满了技术,而每天都有无人机的进步和使用有效地增加。由于许多应用程序方案,在某些任务中,无人机容易受到外部干扰的影响,例如地面站的连通性丧失,安全任务,安全问题和与交货相关的任务。因此,根据情况,这可能会影响运营并导致无人机的安全着陆。因此,本文提出了一种在动态环境中安全着陆的启发式方法。这种方法的目的是检测安全的潜在降落区 - PLZ,并找出最适合降落的区域。最初,PLZ是通过通过Canny Edge算法处理图像来检测的,然后应用了直径估计值对于每个边缘最小的区域。比车辆间隙更高的斑点被标记为安全PLZ。在该方法的第二阶段中,计算了向PLZ移动的动态障碍的速度,并考虑到达到区域的时间。计算无人机的ETA并在无人机的下降期间,执行动态障碍物。在现实世界环境中测试的方法显示了现有工作的更好结果。
translated by 谷歌翻译
许多测量机器人和动态障碍状态的商品传感器具有非高斯噪声特征。然而,许多当前的方法将运动和感知的潜在不确定性视为高斯,主要是为了确保计算障碍。另一方面,与非高斯不确定性一起工作的现有计划者不会阐明运动和感知噪声的分布特征,例如偏见以避免有效碰撞。本文通过将避免反应性碰撞解释为碰撞约束违规与Dirac Delta分布之间的分配匹配问题来填补这一空白。为了确保策划者的快速反应性,我们将每个分布嵌入重现Hilbert空间,并将分布匹配重新匹配,以最大程度地减少两个分布之间的最大平均差异(MMD)。我们表明,评估给定对照输入的MMD归结为仅矩阵矩阵产品。我们利用这种见解来开发一种简单的控制抽样方法,以避免动态和不确定的障碍。我们在两个方面推进了最新的。首先,我们进行了广泛的实证研究,以表明我们的计划者可以从样本级别的信息中推断出分布偏差。因此,它使用此见解来指导机器人良好的同型。我们还强调了基本不确定性的高斯近似如何失去偏置估计值,并引导机器人以高碰撞概率为不利状态。其次,我们显示了与以前的非参数和高斯近似反应性碰撞避免碰撞的碰撞方法的拟议分布匹配方法的切实比较优势。
translated by 谷歌翻译
我们提出了一个新型的基于流动合成的视觉致毒框架,从而为微型航空车辆(MAV)避免了远距离的障碍物(MAV)在高大的摩天大楼中飞行。最近的基于深度学习的框架使用光流进行高精度的视觉伺服。在本文中,我们探讨了一个问题:我们可以为这些高精度视觉服务方法设计替代流,从而导致避免障碍?我们重新审视显着性的概念,以识别其他竞争摩天大楼和建筑物之间的攻击线中的高层建筑物作为碰撞障碍。合成的流程用于取代显着对象分割掩码。该流程得以计算,以至于视觉伺服控制器在障碍物周围安全地操纵MAV。在这种方法中,我们使用基于多步跨凝结法(CEM)的伺服控制来实现流量收敛,从而导致避免障碍物。我们使用这种新颖的管道来成功,持久地进行高层建筑,并在模拟和现实的现实世界中实现目标。我们进行了广泛的实验,并将我们的方法与光流和基于短距离的障碍物回避方法进行比较,以证明所提出的框架的优点。可以在https://sites.google.com/view/munocular-obstacle/home上找到其他可视化。
translated by 谷歌翻译
我们认为具有非正度运动学的代理/机器人的问题避免了许多动态障碍。机器人和障碍物的状态和速度噪声以及机器人的控制噪声被建模为非参数分布,因为噪声模型的高斯假设被侵犯在现实世界中。在这些假设下,我们制定了一种强大的MPC,其以使机器人对准目标状态的方式有效地样本机器人控制,同时避免这种非参数噪声的胁迫下的障碍物。特别地,MPC包括分布匹配成本,其有效地将当前碰撞锥的分布对准到某个所需的分布,其样本是无碰撞的。这种成本在希尔伯特空间中作为距离功能构成,其最小化通常导致碰撞锥样品变得无碰撞。我们通过线性化原始非参数状态和障碍物分布的高斯近似来对比较和显示有形性能增益。我们还通过对非参数噪声的高斯近似构成的方法来表现出卓越的性能,而不会对进一步的线性提出进行这种近似的非参数噪声的高斯近似。性能增益在轨迹长度和控制成本方面都显示,其遵守所提出的方法的功效。据我们所知,这是在存在非参数状态,速度和致动器噪声模型存在下的运动障碍的第一次呈现。
translated by 谷歌翻译
人类有自然能够毫不费力地理解语言指挥,如“黄色轿车旁边的公园”,本能地知道车辆的道路的哪个地区应该导航。扩大这种对自主车辆的能力是创建根据人类命令响应和行动的完全自治代理的下一步。为此,我们提出了通过语言命令引用可导航区域(RNR),即导航的接地区域的新任务。 RNR与引用图像分割(RIS)不同,该图像分割(RIS)侧重于自然语言表达式而不是接地导航区域的对象接地。例如,对于指令“黄色轿车旁边的公园,”RIS将旨在分割推荐的轿车,而RNR旨在将建议的停车位分段在道路上分割。我们介绍了一个新的DataSet,talk2car-regseg,它将现有的talk2car数据集扩展,其中包含语言命令描述的区域的分段掩码。提供了一个单独的测试拆分,具有简明的机动指导命令,以评估我们数据集的实用性。我们使用新颖的变换器的架构基准测试所提出的数据集。我们呈现广泛的消融,并在多个评估指标上显示出卓越的性能。基于RNR输出产生轨迹的下游路径规划器确认了所提出的框架的功效。
translated by 谷歌翻译
本文介绍了一种具有三个自由度(3DOF)的新型被动三输出差异,其将动作和扭矩从单个输入转换为三个输出。建议的三输出开放式差分设计使其功能类似于传统的双输出开放差分的功能。也就是说,当输出不受约束或经受等效的负载条件时,差动将相等的运动和扭矩转换为其三个输出。介绍的设计是第一种具有三个输出的差异,以实现这一结果。三个输出之间的差动动作被动地通过三个双输出开放差分和三个二输入打开差分的对称布置来实现。所得到的差分机制实现了输出所有三个输出的角速度和扭矩关系的等效输入的新颖结果。此外,三输出开放差异实现了具有多于两个输出的差分的新颖结果,其中每个输出共享与所有其他输出的等效角速度和扭矩关系。使用键盘图方法导出三输出开放差分的运动学和动态。另外,呈现了差分机制的优点以及其电流和潜在的应用。
translated by 谷歌翻译
本文介绍了一种新型模块化管攀岩III,采用三输出开口差分(3-OOD)机制,以消除由于管道的横截面变化而导致的轨道的滑动。这将在机器人的任何方向上实现。以前的管道登山者使用三轮/轨道模块,每个模块都有一个单独的驱动机制来实现稳定的遍历。当遇到管道时,在这样的机器人中,轨道的滑动是普遍存在的。因此,采用每个模块的速度的主动控制来减轻滑动,从而需要大量的控制力。所提出的管道登山者通过允许机器人机械地调制轨道速度,实现3-OOD来解决这个问题。提出的3-OOD是第一个三输出差分,以实现传统的双输出差异的功能能力。
translated by 谷歌翻译